波前调节器的限制空间散宽产品(SBP)阻碍了大型视野(FOV)上图像的高分辨率合成/投影。我们报告了一种深度学习的衍射显示设计,该设计基于一对训练的电子编码器和衍射光学解码器,用于合成/项目超级分辨图像,使用低分辨率波形调节器。由训练有素的卷积神经网络(CNN)组成的数字编码器迅速预处理了感兴趣的高分辨率图像,因此它们的空间信息被编码为低分辨率(LR)调制模式,该模式通过低SBP Wavefront调制器投影。衍射解码器使用薄的传播层处理该LR编码的信息,这些层是使用深度学习构成的,以在其输出FOV处进行全面合成和项目超级分辨图像。我们的结果表明,这种衍射图像显示可以达到〜4的超分辨率因子,表明SBP增加了约16倍。我们还使用3D打印的衍射解码器在THZ光谱上进行实验验证了这种衍射超分辨率显示器的成功。该衍射图像解码器可以缩放以在可见的波长下运行,并激发紧凑,低功率和计算效率的大型FOV和高分辨率显示器的设计。
translated by 谷歌翻译
Although machine learning (ML) models of AI achieve high performances in medicine, they are not free of errors. Empowering clinicians to identify incorrect model recommendations is crucial for engendering trust in medical AI. Explainable AI (XAI) aims to address this requirement by clarifying AI reasoning to support the end users. Several studies on biomedical imaging achieved promising results recently. Nevertheless, solutions for models using tabular data are not sufficient to meet the requirements of clinicians yet. This paper proposes a methodology to support clinicians in identifying failures of ML models trained with tabular data. We built our methodology on three main pillars: decomposing the feature set by leveraging clinical context latent space, assessing the clinical association of global explanations, and Latent Space Similarity (LSS) based local explanations. We demonstrated our methodology on ML-based recognition of preterm infant morbidities caused by infection. The risk of mortality, lifelong disability, and antibiotic resistance due to model failures was an open research question in this domain. We achieved to identify misclassification cases of two models with our approach. By contextualizing local explanations, our solution provides clinicians with actionable insights to support their autonomy for informed final decisions.
translated by 谷歌翻译
Rating a video based on its content is an important step for classifying video age categories. Movie content rating and TV show rating are the two most common rating systems established by professional committees. However, manually reviewing and evaluating scene/film content by a committee is a tedious work and it becomes increasingly difficult with the ever-growing amount of online video content. As such, a desirable solution is to use computer vision based video content analysis techniques to automate the evaluation process. In this paper, related works are summarized for action recognition, multi-modal learning, movie genre classification, and sensitive content detection in the context of content moderation and movie content rating. The project page is available at https://github.com/fcakyon/content-moderation-deep-learning}.
translated by 谷歌翻译
在对关键安全环境的强化学习中,通常希望代理在所有时间点(包括培训期间)服从安全性限制。我们提出了一种称为Spice的新型神经符号方法,以解决这个安全的探索问题。与现有工具相比,Spice使用基于符号最弱的先决条件的在线屏蔽层获得更精确的安全性分析,而不会不适当地影响培训过程。我们在连续控制基准的套件上评估了该方法,并表明它可以达到与现有的安全学习技术相当的性能,同时遭受较少的安全性违规行为。此外,我们提出的理论结果表明,在合理假设下,香料会收敛到最佳安全政策。
translated by 谷歌翻译
由于钻孔对准的困难以及任务的固有不稳定性,在手动完成时,在弯曲的表面上钻一个孔很容易失败,可能会对工人造成伤害和疲劳。另一方面,在实际制造环境中充分自动化此类任务可能是不切实际的,因为到达装配线的零件可以具有各种复杂形状,在这些零件上不容易访问钻头位置,从而使自动化路径计划变得困难。在这项工作中,开发并部署了一个具有6个自由度的自适应入学控制器,并部署在Kuka LBR IIWA 7配件上,使操作员能够用一只手舒适地在机器人上安装在机器人上的钻头,并在弯曲的表面上开放孔,并在弯曲的表面上开放孔。通过AR界面提供的玉米饼和视觉指导的触觉指导。接收阻尼的实时适应性在自由空间中驱动机器人时,可以在确保钻孔过程中稳定时提供更高的透明度。用户将钻头足够靠近钻头目标并大致与所需的钻探角度对齐后,触觉指导模块首先对对齐进行微调,然后将用户运动仅限于钻孔轴,然后操作员仅将钻头推动钻头以最小的努力进入工件。进行了两组实验,以定量地研究触觉指导模块的潜在好处(实验I),以及根据参与者的主观意见(实验II),提出的用于实际制造环境的PHRI系统的实际价值。
translated by 谷歌翻译
由于无人机成本降低并且无人机技术有所改善,无人机检测已成为对象检测的重要任务。但是,当对比度较弱,远距离可见度较弱时,很难检测到遥远的无人机。在这项工作中,我们提出了几个序列分类体系结构,以减少无人机轨道检测到的假阳性比率。此外,我们提出了一个新的无人机与鸟类序列分类数据集,以训练和评估拟议的架构。3D CNN,LSTM和基于变压器的序列分类体系结构已在拟议的数据集上进行了培训,以显示提出的思想的有效性。如实验所示,使用序列信息,鸟类分类和整体F1分数可以分别提高73%和35%。在所有序列分类模型中,基于R(2+1)D的完全卷积模型可产生最佳的转移学习和微调结果。
translated by 谷歌翻译
准确的动力学模型在许多机器人技术应用程序(例如越野导航和高速驾驶)中起着至关重要的作用。然而,学习随机运动动力学模型的许多最先进的方法需要对机器人状态作为标记的输入/输出示例进行精确测量,由于传感器功能有限,并且缺乏地面真相,在室外设置中可能很难获得。 。在这项工作中,我们提出了一种新技术,用于通过执行同时进行状态估计和动力学学习,从嘈杂和间接观察中学习神经随机的动力学模型。所提出的技术迭代地改善了预期最大化环路中的动力学模型,其中E步骤采样了使用粒子过滤的后状态轨迹,并且M步骤更新动力学,以使通过随机梯度上升的采样轨迹更加一致。我们在模拟和实际基准测试中评估了我们的方法,并将其与几种基线技术进行比较。我们的方法不仅达到了更高的精度,而且对观察噪声也更加强大,从而显示出有望提高许多其他机器人应用的性能。
translated by 谷歌翻译
在现场遥远的小物体和物体的检测是监视应用中的一个重大挑战。此类对象由图像中的少量像素表示,并且缺乏足够的细节,因此很难使用常规检测器检测到它们。在这项工作中,提出了一个称为切片辅助超推理(SAHI)的开源框架,该框架提供了一种通用切片的辅助推理和用于小对象检测的微调管道。提出的技术是通用的,因为它可以在任何可用的对象检测器之上应用于而无需任何微调。实验评估,使用对象检测基线在Visdrone和Xview Aerial对象检测数据集上表明,FCO,VFNET和TOOD检测器分别将对象检测方法分别增加6.8%,5.1%和5.3%。此外,通过切片辅助微调可以进一步提高检测准确性,从而导致累计增加12.7%,13.4%和14.5%的AP按照相同的顺序。拟议的技术已与DestectRon2,MMDetection和Yolov5模型集成在一起,并在https://github.com/obss/sahi.git上公开获得。
translated by 谷歌翻译
随着无人机的使用随着成本降低和改善的无人机技术而增加,无人机检测作为一个重要的对象检测任务。然而,在不利的条件下检测远处无人机,即弱对比度,远程,低可视性,需要有效的算法。我们的方法通过使用基于卡尔曼的对象跟踪器微调使用基于Kalman的对象跟踪器来提高yolov5模型来通过微调yolov5模型来接近无人机检测问题,以提高检测信心。我们的结果表明,通过最佳的合成数据子集增强真实数据可以提高性能。此外,由对象跟踪方法收集的时间信息可以进一步提高性能。
translated by 谷歌翻译
虽然考试风格的问题是一家提供各种目的的基本型教育工具,但有问题的手动构建是一个复杂的过程,需要培训,经验和资源。为减少与人工建设相关的开支并满足不需要持续供应新问题,可以使用自动问题(QG)技术。但是,与自动问题应答(QA)相比,QG是一个更具挑战性的任务。在这项工作中,我们在QA,QG的多任务设置中微调多语言T5(MT5)变压器,并使用土耳其QA DataSet回答提取任务。据我们所知,这是第一个尝试从土耳其语文本执行自动文本到文本问题的学术工作。评估结果表明,拟议的多任务设置达到了最先进的土耳其语问题应答和问题绩效,而不是TQuadv1,TQuadv2数据集和XQuad土耳其分裂。源代码和预先训练的模型可在https://github.com/obss/turkish-question-generation中获得。
translated by 谷歌翻译